ارائه یک مدل متن کاوی مبتنی بر یادگیری نیمه نظارتی
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی
- نویسنده مریم باحجب ایمانی
- استاد راهنما محمد رضا کیوان پور رضا عزمی
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1389
چکیده
محبوبیت وب و حجم زیاد مستندات متنیِ الکترونیکی موجود، باعث افزایش نیاز به جستجو برای استخراج دانش نهان از مجموعه ی مستندات متنی شده است. بنابراین، امروزه مسئله ی متن کاوی در زمینه های متعددی از جمله پزشکی، زیست-فناوری، اقتصاد و فناوری اطلاعات مورد توجه قرار گرفته است. متن کاوی قادر است پردازش هایی مانند طبقه بندی، خوشه بندی، خلاصه سازی و استخراج اطلاعات متنی را پوشش دهد. طبقه بندی متون به شیوه ا ی مناسب با میزان خطای کم و تعمیم پذیری بالا یکی از موضوعات مهم در حوزه ی متن کاوی است. یکی از مهم ترین چالش ها در طبقه بندی متون، حجم زیاد مشخصه های مستخرج از اطلاعات متنی می باشد. یادگیری از داده هایی که مشخصه های زیادی دارند نه تنها باعث افزایش هزینه های محاسباتی می شود، بلکه کارایی یادگیری را نیز کاهش می دهد. بر این اساس استفاده از روش های مناسب انتخاب مشخصه از اهمیت ویژه ای در این حوزه برخوردار می باشد. در این راستا، در پژوهش انجام شده یک روش انتخاب مشخصه های توکار برای حل این چالش پیشنهاد شده است که نتایج بهتری را نسبت به روش های رایج می دهد. بهره گیری از روش های یادگیری با نظارت، که از مثال های آموزشی بر چسب دار استفاده می کنند، به عنوان یکی از رویکردهای سنتی جهت طبقه بندی متون مطرح است. برای انجام این نوع یادگیری با دقتی منطقی، وجود تعداد کافی از مثال های آموزشی برچسب دار ضروری است. بدین منظور به فردی خبره نیاز است که به هر سند برچسبی نسبت دهد؛ که این کار فرآیندی خسته کننده، زمانبر و پر هزینه می باشد. بنابراین تأمین تعداد کافی از مثال های آموزشی برچسب دار عملی غیر ممکن است. در مقابل، اسناد بدون برچسب اغلب در حجم زیاد قابل دسترس هستند. بنابراین، رویکرد موثر و عملی دیگر در یادگیری استفاده از اسناد برچسب دار به همراه اسناد بدون برچسب در زمان یادگیری می باشد، این ایده مبنای اصلی رویکرد یادگیری نیمه نظارتی را تشکیل می دهد. در این حالت، الگوریتم های یادگیری می توانند از داده های بدون برچسب استفاده کنند، که اغلب منتهی به تابع طبقه بندی دقیق تری می شود. در این پژوهش، روشی مبتنی بر یادگیری تجمیعی و رویکرد خودآموزی برای انجام یادگیری نیمه نظارتی پیشنهاد شده است که بر اساس آزمون های انجام شده موجب بهبود کارایی یادگیری نیمه نظارتی در زمینه ی طبقه بندی متون شده است.
منابع مشابه
ارائه مدلی برای استخراج اطلاعات از مستندات متنی، مبتنی بر متن کاوی در حوزه یادگیری الکترونیکی
هنگامی که شبکه های کامپیوتری ستون اصلی علم و اقتصاد شد، حجم زیادی از مستندات در دسترس قرار گرفتند. به همین منظور، برای استخراج اطلاعات مفید از روش های متن کاوی استفاده می شود. متن کاوی یک حوزه پژوهشی مهم در کشف اطلاعات ناشناخته، فرضیات، و حقایق جدید به وسیله استخراج اطلاعات از اسناد مختلف است. همچنین متن کاوی آشکار کردن اطلاعات پنهان با استفاده از روشی است که در یک طرف توانایی مقابله با تعداد ز...
متن کاملیک روش مبتنی بر یادگیری نیمه نظارتی برای طبقه بندی داده های چند رابطه ای
یکی از زمینه های کاربردی روش های یادگیری ماشین و تشخیص الگو در زمینه ی تجارت هوشمند برای سازمان ها می باشد. روش های تجارت هوشمند سازمان ها را قادر می سازد که تحلیل خردمندانه ای داشته باشند و تصمیم های به موقع و هوشمندانه اخذ کنند که تغییرات قابل ملاحظه ای در رقابت خود و شرایط بازار ایجاد کنند. بنابراین کاوش دانش روی داده های واقعی با استفاده از روش های یادگیری ماشین بسیار پرارزش می باشد. هرچند،...
ارائه یک مدل داده کاوی جهت آشکارسازی ناهنجاری درپرتاب ماهواره
آشکارسازی ناهنجاری، یافتن الگوها در دادههایی است که از رفتار مورد انتظاری تبعیت نمیکنند. توسعه فناوریهای آشکارسازی ناهنجاری و تشخیص خطا بهصورت هوشمند، برای حامل پرتاب ماهواره بهدلیل محیط سخت، دور و غیرقطعی، بهعنوان یک مسئله کاملاً مهم و قابل توجه در صنعت هوافضا مطرح است. مدل پایش فعلی، با نظارت افراد خبره از طریق نمایش اطلاعات تلهمتری بهکمک یک واسط گرافیکی انجام میشود. این رویکرد، ...
متن کاملیادگیری نیمه نظارتی کرنل مرکب با استفاده از تکنیکهای یادگیری معیار فاصله
Distance metric has a key role in many machine learning and computer vision algorithms so that choosing an appropriate distance metric has a direct effect on the performance of such algorithms. Recently, distance metric learning using labeled data or other available supervisory information has become a very active research area in machine learning applications. Studies in this area have shown t...
متن کاملارائه یک مدل نیمه- اتوماتیک مبتنی بر آنالیز شیءگرا به منظور تهیه نقشه پراکنش زمینلغزش (مطالعۀ موردی: از حوزۀ آبخیزوازرود)
نخستین گام در مطالعات حساسیت و خطر زمینلغزش، تهیه نقشه پراکنش زمینلغزشها است. روش معمول در تهیه نقشه-های زمینلغزش شامل مطالعات میدانی به همراه تفسیر عکس-های هوایی میباشد. تکنیکهای نوین و نوظهور سنجش از دوری، با استفاده از تصاویر ماهوارهای منجربه تسهیل تولید نقشههای زمینلغزش و کاهش زمان مورد نیاز شدهاست. در تحقیق حاضر به منظور شناسایی زمینلغزشهای بخشی از رشته کوههای البرز میانی در ...
متن کاملایجاد یک مدل پیش آگهی مبتنی بر داده کاوی برای پیش بینی عود مجدد سرطان پستان
مقدمه: سرطان پستان یکی از شایعترین انواع سرطان و شایعترین نوع بدخیمی در زنان ایرانی است که اخیرا روند رو به رشدی داشته است. در مبتلایان به این بیماری همواره احتمال عود مجدد وجود دارد. عوامل زیادی میزان این احتمال را افزایش یا کاهش میدهند. دادهکاوی از روشهایی است که در تشخیص یا پیشبینی سرطانها بهکار میرود و یکی از بیشترین کاربردهای آن، پیشبینی عود مجدد سرطان است. روش: در این مطالعه گذش...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023